Работа с программой BLAST
На главную страницу семестра
1. Поиск белка по его последовательности
I. На сервере NCBI - http://www.ncbi.nlm.nih.gov/BLAST/ - мы провели
поиск моей последовательности (искали, пользуясь AC P03007) программой BLASTP в банке swissprot
(для этого изменили значение параметра database на swissprot).
Полученный результат:
- В полученных данных мы нашли белок по которому искали,его порядковый номер первый (что не удивительно,
так как сам белок полностью соответствует себе),
- Score=473.
- E-value=2e-133.
II. Повторили поиск с той же входной последовательностью,
указав в качестве банка pdb.
Полученыне результаты:
Первой последовательностью в списке оказалась последовательность моего белка (pdb_id=1j53),
комментарии см. ниже.
- PDB-коды и идентификаторы цепей:
а)PDB-код 1J54, идентификаторы цепи A
б)PDB-код 1J53, идентификаторы цепи A
- Score=186
- E-value=3e-104
- Начало выравнивания во входной последовательности Query 1.Конец выравнивания
во входной последовательности Query 186.
- Начало выравнивания в находке Subject 1. Конец выравнивания в находке Subject 186.
Коммнентарии:
Данный результат легко объяснить, дело в том что хотя длина последовательности
белка и равна 243, но в PDB было исследовано только 186 первых аминокислот и для них дана
3D структура, поэтому это действительно мой белок, только последовательность дана не полностью.
2. Поиск белка по его гомологу
В этом задании мы провели поиск в банке swissprot программой BLASTP,
подав на вход последовательность
из файла secondprot.fasta
(белок P57337) из предыдущего задания.
Результат:
В полученном списке гомологов был найден и мой белок.
Общие сведения:
- Порядковый номер белка 5.
- Score = 220 bits (561),
- E-value = 2e-57.
- Начало и конец выравнивания во входной последовательности 5-236.
- Начало и конец выравнивания в находке 7-241.
- Identities = 111/235 (47%).
Первая же находка является тем самым белком, по-которому искали, как и в случае с моим белком.
3. Поиск белка по фрагментам его последовательности
В этом задании мы провели поиск в банке swissprot программой BLASTP, подав на вход
последовательность из файла thirdprot.fasta.(ссылка)
Результаты:
В полученном списке гомологов был найден и мой белок.
Общие сведения:
- Порядковый номер моего белка 2.
- Score = 27.3 bits (59).
- E-value = 9.5
- Начало и конец выравнивания во входной последовательности 1-13.
- Начало и конец выравнивания в находке 121-131.
- Identities = 11/13 (84%).
Вывод:
Было найдено всего два белка среди которых один был мой, а второй его гомолог,
при этом его структура на данном участке совпадало со структурой моего белка,
и все характеристики выравнивания совпадали, поэтому мой белок мог находиться и на первом месте.
Следует так же отметить, что выравнивание было сделано по томуже участку, что и выравнивание
этого же куска последовательности по моему белку, но в предыдущем задании при помощи программы
глобального выравнивания.
Таким образом программа BLASTP позволяет находить гомологи белка, пользуясь его последовательностью.
4. Разные пользовательские интерфейсы BLAST
Задание номер 2 (поиск белка по его гомологу), мы повторили пользуясь программой BLASTP
на сервере EBI : http://www.ebi.ac.uk/blastall/
В результате мы получили таблицу, содержащую сведения о полученных гомологах
(правда почему-то программа не захотела искать белки пользуясь AC, так что пришлось искать
пользуясь собственно последовательностью белка, что несколько усложнило действия).
Сравнивая эти данные с данными сервера NCBI,
можно сказать следующее: последовательность полученных белков была сходной в данных обоих программ,
но интересно заметить, что на NCBI при первичном просмотре списка белков
(без выравнивания) не показываются белки с одинаковыми последовательностями,
а на EBI - показываются, что не очень удобно, так как белки эти являются одинаковыми
и нет смысла писать их раздельно; также для просмотра выравниваний на EBI требуется
пользоваться специальной функцией. К важным замечаниям относится также то,
что по неизвестной мне причине в разных интерфейсах данные о выравнивании оказались
несколько различными (почему-то различались параметры Score, Positives% и E-value,
хотя и не очень сильно, но порой даже очень значительно, например,
для Score по выравниванию самого белка по себе - 1235 и 1152, конечно, при меньших Score
и различия были меньше, но все же...).
Сравнение сервера NCBI с сервером Пастеровского института
(http://bioweb.pasteur.fr/seqanal/interfaces/blast2-simple.html):
на этом сайте мы смогли найти данные о гомологах также, как и в предыдущем случае
только по собственной последовательности белка, а по AC программа искать отказалась,
данные программа выдала в блокноте, при этом следует указать ряд интересных особенностей.
Во-первых, данные были очень похожи на данные с сервера NCBI (визуально). Во-вторых,
количественные данные также отличались не сильно (значительно меньше, чем при сравнении
с сервером EBI ), так для Score разница составляла не более 1 (таким образом
результаты EBI находятся не в выигрышной позиции, так как его результаты противоречат двум сайтам),
а для E-value - не более порядка (что в данном случае действитеьно не так уж много).
В-третьих,здесь нам также предлагались сразу же выравнивания последовательностей.
Правда возникли некоторые странные случаи, например, сам белок по себе программа выравняла
не полностью, а один кусок остался пустым. Также отметим, что некоторые студенты жаловались
на то, что результаты поиска они смогли получить лишь на следующий день после поиска и они
были присланы на почтовый ящик, адрес которого необходимо было прописывать при поиске,
что естественно является большим неудобством.
5. Является ли BLAST инструментом для поиска ортологов
Первым делом в этом задании мы должны были узнать AC белка, после недолгих
поисков было установлено, чт AC=P36944. Теперь можно было уже приступать к поиску предполагаемых
ортологов, поиск велся на NCBI и EBI, при этом результаты оказались совпадающими (исключая
те особенности, которые указывались в предыдущем задании). В первой 20-ке оказались все белки,
в название которых входило слово RBSR, (если учесть, что на сервере EBI пришлось учесть все штамы,
из-за которых последний такой белок был вытеснен на 23 позицию), а далее не было ни одного белка
с таким названием. При этом интересно заметить, что белки следовали "пачками"
(RBSR_BACHD+RBSR_LACLA;RBSR_SHIFL+RBSR_ECOLI+RBSR_HAEIN). Этот интересный факт мог бы
свидетельствовать о том, что в эволюции существовали этапы разделения, при этом о степени
родства можно было бы судить, основываясь на результат счета при выравнивании по исследуемому
на наличие ортологов белка, но как оказалось предположение оказалось не верно,
так как при выравнивании двух последовательностей из "пачки" мы увидели,
что совпадение счета оказалось случайным, и идентичность этих двух последовательностей
не составляла и 50 процентов (в одном случае 36, а в другом 48).
Кроме того я решил проверить сколько и какие белки найдет программа при поиске по одному из
предполагаемых ортологов, при этом было найдено такое же количество белков, которые в своем
названии имели слово RBSR, что конечно говорит в пользу того, что BLASTP является программой для
поиска ортологов.
Также добавим несколько слов о логичности такого поиска, программа BLASTP не является
непосредственно программой для поиска ортологов, а ищет лишь последовательности, гомологичные
данной, при этом, если мы не знаем критерия определения ортологов, то Blast вообще не пригоден,
в данном случае мы уже имели критереий поиска, что сильно облегчало задание.
Кроме того мы искали только по одному банку, а значит теряем общность результатов.
В заключение надо сказать, что хотя и возникает много неясностей в четком определении ортологов,
но в данном случае надо признать, что программа выполнила поставленную задачу
(значительная часть белков оказалась ортологами), но это все-таки не значит,
что в целом программа является инструментом для поиска ортологов.
©Метелев Михаил